Flow-DPPO: Optimización de Política Proximal con Divergencia para Modelos Flow
Flow-DPPO mejora la generación de imágenes y video con RL online y restricción de divergencia, superando al ratio clipping. ¡Descubre cómo!
Flow-DPPO mejora la generación de imágenes y video con RL online y restricción de divergencia, superando al ratio clipping. ¡Descubre cómo!